Análise de Variância Multivariada (MANOVA)

ANOVA \(\times\) MANOVA


A análise multivariada de variância (MANOVA) é uma generalização da análise de variância univariada (ANOVA)

Enquanto a ANOVA se concentra no estudo das diferenças entre as médias populacionais dos grupos em uma única variável dependente, a MANOVA examina essas diferenças em duas ou mais variáveis dependentes simultaneamente.

ANOVA \(\times\) MANOVA

Tanto a ANOVA quanto a MANOVA só fornecem informações sobre a existência de diferenças estatisticamente significativas entre as médias dos grupos em um conjunto de variáveis dependentes, necessitando de outros testes para obtermos resultados mais confiáveis e precisos.

A maioria das pesquisas não estão interessadas em avaliar as diferenças entre médias para uma única variável dependente, mas sim para um conjunto de variáveis dependentes.

Se fizermos várias ANOVAs, presumimos que não existe uma estrutura de correlação entre as variáveis dependentes, ou que uma tal estrutura não é de interesse.

ANOVA \(\times\) MANOVA

A MANOVA presume existência de correlação significativa entre as variáveis dependentes.

Neste contexto, se realizarmos várias ANOVAs

ERRO TIPO I: Rejeitar \(H_0\) quando esta é verdadeira!

ANOVA: Pequena revisão…

Modelo ANOVA a um fator univariado


Considere g amostras aleatórias independentes \(X_{j1}, X_{j2}, \cdots, X_{jn_j}\), \(j = 1, \cdots, g\) de tamanhos \(n_j\) de distribuições \(N(\mu_j,\sigma^2)\).

As hipóteses de interesse são:

\[H_0: \mu_1 = \mu_2 = \cdots = \mu_g\] \[H_a: \text{pelo menos uma média é diferente das demais}\]

Modelo ANOVA a um fator univariado

O modelo ANOVA é definido por

\[X_{ji} = \mu_j + \epsilon_{ji}\]

\[X_{ji} = \underbrace{\mu_j}_{\text{média da j-ésima amostra}} + \overbrace{\epsilon_{ji}}^{\text{erro aleatório i-ésima observação na j-ésima amostra}}\]

\(i = 1, \cdots, n_j\) e \(j = 1, \cdots, g\)

Modelo ANOVA a um fator univariado

Em geral, adota-se a seguinte reparametrização:

\[\mu_j = \mu + \tau_j\]

\[\mu_j = \underbrace{\mu}_{\text{média geral}} + \overbrace{\tau_{j}}^{\text{efeito do j-ésimo tratamento}}\]

e, assim, as hipóteses equivalentes são:

\[H_0: \tau_1 = \tau_2 = \cdots = \tau_g = 0\] \[H_a: \text{pelo menos um é não-nulo}\]

Modelo ANOVA a um fator univariado

O modelo ANOVA é redefinido por

\[X_{ji} = \mu + \tau_j + \epsilon_{ji}\]

\(i = 1, \cdots, n_j\) e \(j = 1, \cdots, g\)

Suposição: \(\epsilon_{ji} \stackrel{\text{ind}}{\sim} N(0,\sigma^2)\)

Modelo ANOVA a um fator univariado

No modelo de efeito fixo, temos:

\[\mu = \displaystyle{\frac{\displaystyle{\sum_{j=i}^g n_j \mu_j}}{\displaystyle{\sum_{j=1}^g n_j}}} = \displaystyle{\frac{\displaystyle{\sum_{j=i}^g n_j (\mu + \tau_j)}}{\displaystyle{\sum_{j=1}^g n_j}}} = \displaystyle{\mu + \frac{\displaystyle{\sum_{j=i}^g n_j \tau_j}}{\displaystyle{\sum_{j=1}^g n_j}}} \Rightarrow \displaystyle{\sum_{j=1}^g n_j\tau_j = 0}\]

Modelo ANOVA a um fator univariado

O procedimento básico adotado é a decomposição da soma de quadrados totais:

\[\begin{eqnarray} \underbrace{\displaystyle{\sum_{j=1}^g} \displaystyle{\sum_{i=1}^{n_j}}(x_{ji} - \bar{x}_{\ldotp \ldotp})^2}_{\text{SQ Total}} &=& \displaystyle{\sum_{j=1}^g} \displaystyle{\sum_{i=1}^{n_j}}(x_{ji} - \bar{x}_{j \ldotp} + \bar{x}_{j \ldotp} - \bar{x}_{\ldotp \ldotp})^2 = \nonumber \\ &=& \underbrace{\displaystyle{\sum_{j=1}^g} n_j (\bar{x}_{j \ldotp} - \bar{x}_{\ldotp \ldotp})^2}_{\text{SQ Tratamentos}} + \underbrace{\displaystyle{\sum_{j=1}^g} \displaystyle{\sum_{i=1}^{n_j}}(x_{ji} - \bar{x}_{j \ldotp})^2}_{\text{SQ Resíduos}} \nonumber \end{eqnarray}\]

Modelo ANOVA a um fator univariado

As estimativas de mínimos quadrados de \(\mu\) e \(\tau_j\) são dadas por

\[\widehat{\mu} = \bar{x}_{\ldotp \ldotp} = \displaystyle{\frac{1}{n}}\displaystyle{\sum_{j=1}^g} \displaystyle{\sum_{i=1}^{n_j}} x_{ji},\text{ com }n = \displaystyle{\sum_{j=1}^g n_j}\]

\[\widehat{\tau}_j = \bar{x}_{j \ldotp} - \bar{x}_{\ldotp \ldotp}, \text{ com } \bar{x}_{j \ldotp} = \displaystyle{\frac{1}{n_j}} \displaystyle{ \sum_{i=1}^{n_j} x_{ji}}\]

Um estimador não viciado para \(\sigma^2\) é dado por \(\widehat{\sigma}^2 = \displaystyle{\frac{\text{SQ Resíduos}}{n - g}}\), com \(n = \displaystyle{\sum_{j=1}^g n_j}\).

Modelo ANOVA a um fator univariado

Tabela ANOVA a um fator em g níveis


Fonte de Variação G.L. SQ QM F
Tratamento \(g - 1\) \(\displaystyle{\sum_{j=1}^g} n_j (\bar{x}_{j \ldotp} - \bar{x}_{\ldotp \ldotp})^2\) \(\displaystyle{\frac{SQ Trat}{g - 1}}\) \(\displaystyle{\frac{QM Trat}{QM Res}}\)
Resíduos \(n - g\) \(\displaystyle{\sum_{j=1}^g} \displaystyle{\sum_{i=1}^{n_j}}(x_{ji} - \bar{x}_{j \ldotp})^2\) \(\displaystyle{\frac{SQ Res}{n - g}}\)
Total \(n - 1\) \(\displaystyle{\sum_{j=1}^g} \displaystyle{\sum_{i=1}^{n_j}}(x_{ji} - \bar{x}_{\ldotp \ldotp})^2\)

Modelo ANOVA a um fator univariado


Se \(H_0\) é verdadeira, \(F \sim F_{g - 1, n-g}\). Logo, rejeitamos \(H_0\) ao nível de significância \(\alpha\) se \(F > F_{g - 1, n-g}(\alpha)\).

Observe que isto é equivalente a dizer que o teste rejeita \(H_0\) para valores grandes da razão \(\displaystyle{\frac{SQ Trat}{SQ Res}}\).

Modelo ANOVA a um fator univariado


Equivalentemente, valores grandes de \(1 + \displaystyle{\frac{SQ Trat}{SQ Res}}\), ou de forma análoga, valores pequenos da recíproca, dada por

\[\displaystyle{\frac{SQ Res}{SQ Trat + SQ Res}}\]

Adiante, veremos que uma estatística de teste multivariada, com suas devidas adaptações, tem forma similar à esta acima.

MANOVA: Uma generalização da ANOVA

Modelo MANOVA a um fator


Considere as seguintes amostras aleatórias coletadas de \(g \geqslant 2\) populações:

Amostra 1: \(\mathbf{x}_{11}, \mathbf{x}_{12}, \cdots, \mathbf{x}_{1n_1}\) da população \(\pi_1\)

Amostra 2: \(\mathbf{x}_{21}, \mathbf{x}_{22}, \cdots, \mathbf{x}_{2n_2}\) da população \(\pi_2\)

\[\vdots\]

Amostra g: \(\mathbf{x}_{g1}, \mathbf{x}_{g2}, \cdots, \mathbf{x}_{gn_g}\) da população \(\pi_g\)

Modelo MANOVA a um fator


  • Suposições
  1. \(\mathbf{x}_{j1}, \mathbf{x}_{j2}, \cdots, \mathbf{x}_{jn_j}\) é uma amostra de tamanho \(n_j\) de uma população com média \(\mathbf{\mu}_j\), \(j = 1, 2, \cdots, g\);
  1. Todas as populações têm matriz de covariâncias comum \(\mathbf{\Sigma}\);
  1. Cada população é normal p-variada;
  1. As amostras são independentes.

Modelo MANOVA a um fator

O modelo MANOVA é definido por

\[\mathbf{x}_{ji} = \mathbf{\mu} + \mathbf{\tau}_j + \mathbf{\epsilon}_{ji}\]

\(i = 1, \cdots, n_j\) e \(j = 1, \cdots, g\)

  • Suposição: \(\mathbf{\epsilon}_{ji} \stackrel{\text{ind}}{\sim} N_p(\mathbf{0},\mathbf{\Sigma})\)

  • Restrição: \(\displaystyle{\sum_{j=1}^g n_j \mathbf{\tau}_j = \mathbf{0}}\)

Modelo MANOVA a um fator


Soma de Quadrados Total:

\[SQ Tot = \displaystyle{\sum_{j=1}^g} \displaystyle{\sum_{i=1}^{n_j}}(\mathbf{x}_{ji} - \bar{\mathbf{x}}_{\ldotp \ldotp})(\mathbf{x}_{ji} - \bar{\mathbf{X}}_{\ldotp \ldotp})^t\]

Modelo MANOVA a um fator

  • Observações:
  1. \(\bar{\mathbf{x}}_{\ldotp \ldotp}\) é o vetor de médias amostral geral;
  1. Agora, SQ Tot é uma matriz \(p \times p\);
  1. Os elementos de sua diagonal principal correspondem às somas de quadrados totais para cada variável separada;
  1. Fora da diagonal, temos as somas dos produtos cruzados dos desvios, caracterizando a estrutura de dependência das p variáveis estudadas.

Modelo MANOVA a um fator

Decomposição da Soma de Quadrados Total:

\[\underbrace{\displaystyle{\sum_{j=1}^g} n_j (\bar{\mathbf{x}}_{j \ldotp} - \bar{\mathbf{x}}_{\ldotp \ldotp}) (\bar{\mathbf{x}}_{j \ldotp} - \bar{\mathbf{x}}_{\ldotp \ldotp})^t}_{\text{SQ Tratamentos}} + \underbrace{\displaystyle{\sum_{j=1}^g} \displaystyle{\sum_{i=1}^{n_j}}(\mathbf{x}_{ji} - \bar{\mathbf{x}}_{j \ldotp})(\mathbf{x}_{ji} - \bar{\mathbf{x}}_{j \ldotp})^t}_{\text{SQ Resíduos}}\]

Observação: Os graus de liberdade de todos os casos são os mesmos do caso univariado.

  • Hipóteses:

\[H_0: \mathbf{\tau}_1 = \mathbf{\tau}_2 = \cdots = \mathbf{\tau}_g = \mathbf{0}\] \[H_a: \text{pelo menos um é não-nulo}\]

Modelo MANOVA a um fator

Tabela MANOVA a um fator em g níveis


Fonte de Variação G.L. Matriz de SQ
Tratamento \(g - 1\) \(H = \displaystyle{\sum_{j=1}^g} n_j (\bar{\mathbf{x}}_{j \ldotp} - \bar{\mathbf{x}}_{\ldotp \ldotp}) (\bar{\mathbf{x}}_{j \ldotp} - \bar{\mathbf{x}}_{\ldotp \ldotp})^t\)
Resíduos \(n - g\) \(E = \displaystyle{\sum_{j=1}^g} \displaystyle{\sum_{i=1}^{n_j}}(\mathbf{x}_{ji} - \bar{\mathbf{x}}_{j \ldotp}) (\mathbf{x}_{ji} - \bar{\mathbf{x}}_{j \ldotp})^t\)
Total \(n - 1\) \(T = \displaystyle{\sum_{j=1}^g} \displaystyle{\sum_{i=1}^{n_j}}(\mathbf{x}_{ji} - \bar{\mathbf{x}}_{\ldotp \ldotp}) (\mathbf{x}_{ji} - \bar{\mathbf{x}}_{\ldotp \ldotp})^t\)

Modelo MANOVA a um fator

  • Observações:
  1. \(T = H + E\)
  1. As diagonais principais de cada uma dessas matrizes de somas de quadrados e produtos cruzados fornecerão as somas de quadrados da ANOVA para cada variável separadamente.

Uma possível estatística de teste envolve variâncias generalizadas. Seja,

\[\Lambda = \displaystyle{\frac{|E|}{|H + E|}}\]

Rejeitamos \(H_0\) se \(\Lambda\) for um valor pequeno.

Modelo MANOVA a um fator


  • A estatística \(\Lambda\) foi originalmente proposta por Wilks e corresponde a uma forma equivalente ao teste F da hipótese de ausência de efeito de tratamento do caso univariado.
  • A estatística lambda de Wilks tem a vantagem de ser conveniente e estar correlacionada ao teste da razão de verossimilhança.
  • distribuição exata de \(\Lambda\) pode ser derivada para os casos especiais apresentados a seguir:

Modelo MANOVA a um fator

Casos especiais

\(p = 1\) \(g \geqslant 2\) \(\displaystyle{\left(\frac{n - g}{g - 1}\right)} \displaystyle{\left(\frac{1 - \Lambda}{\Lambda}\right)} \sim F_{g - 1,n - g}\)
\(p = 2\) \(g \geqslant 2\) \(\displaystyle{\left(\frac{n - g - 1}{g - 1}\right)} \displaystyle{\left(\frac{1 - \sqrt{\Lambda}}{\sqrt{\Lambda}}\right)} \sim F_{2(g - 1),2(n - g - 1)}\)
\(p \geqslant 1\) \(g = 2\) \(\displaystyle{\left(\frac{n - p - 1}{p}\right)} \displaystyle{\left(\frac{1 - \Lambda}{\Lambda}\right)} \sim F_{p, n - p- 1}\)
\(p \geqslant 1\) \(g = 3\) \(\displaystyle{\left(\frac{n - p - 2}{p}\right)} \displaystyle{\left(\frac{1 - \sqrt{\Lambda}}{\sqrt{\Lambda}}\right)} \sim F_{2p,2(n - p - 2)}\)
  • Observação: Para outros casos e tamanhos amostrais grandes, uma modificação de \(\Lambda\) devido da Bartlett pode ser usada para testar \(H_0\).

Modelo MANOVA a um fator


Bartlett mostrou que se \(H_0\) é verdadeira e \(n\) é grande, então,

\[-\left(n - 1 - \displaystyle{\frac{p + g}{2}}\right) \ln(\Lambda) \dot{\sim} \chi_{p(g - 1)}^2\]

Consequentemente, se \(n\) é grande, rejeitamos \(H_0\) ao nível de significância \(\alpha\), se

\[-\left(n - 1 - \displaystyle{\frac{p + g}{2}}\right) \ln(\Lambda) > \chi_{p(g - 1)}^2(\alpha)\]

Modelo MANOVA a um fator

Outros testes multivariados

  • Traço de Hotelling-Lawley:

\[U = tr(HE^{-1})\]

Sob \(H_0\), temos que

\[\displaystyle{\frac{2(sn + 1)}{s^2(2m + s + 1)}U \hspace{0.2cm} \dot{\sim} \hspace{0.2cm} F_{s(2m + s + 1),2(sn + 1)}}\]

Modelo MANOVA a um fator

Outros testes multivariados

  • Traço de Pillai:

\[V = tr[H(H + E)^{-1}]\]

Sob \(H_0\), temos que

\[\left(\displaystyle{\frac{V}{s - V}} \right) \left(\displaystyle{\frac{2n + s + 1}{2m + s + 1}}\right) \hspace{0.2cm} \dot{\sim} \hspace{0.2cm} F_{s(2m + s + 1),s(2n + s + 1)}\]

Modelo MANOVA a um fator

Outros testes multivariados

  • Raiz máxima de Roy:

\[\Theta = \lambda_1\]

sendo \(\lambda_1\) o maior autovalor da matriz \(HE^{-1}\).

Sob \(H_0\), temos que

\[\displaystyle{\frac{\Theta(\nu - d + q)}{d}} \hspace{0.2cm} \dot{\sim} \hspace{0.2cm} F_{d,\nu - d + q}\]

Modelo MANOVA a um fator

Outros testes multivariados


Observações

\(\nu\) = G.L. Resíduo \(d = \max(p,q)\) \(s = \min(p,q)\)
\(n = \displaystyle{\frac{\nu - p - 1}{2}}\) \(m = \displaystyle{\frac{|p - q| - 1}{2}}\) \(q\) = G.L. Tratamento
\(p\) = número de variáveis

Modelo MANOVA a um fator

Exemplo - Análise dos dados de uma casa de repouso para idosos:

O departamento de saúde e serviços sociais de determinada cidade reembolsa casas de repouso para idosos no estado por serviços oferecidos.

O departamento desenvolve um conjunto de fórmulas para as taxas com facilidade, baseado em fatores tais como níveis de cuidados, taxa média de salários e taxa média de salários no estado.

As casas de repouso podem ser classificadas com relação à propriedade: privadas, sem fins lucrativos e públicas e também com relação à certificação: especializadas em enfermagem, unidades de cuidados intermediários ou uma combinação dos dois.

Modelo MANOVA a um fator

O objetivo foi verificar os efeitos de propriedade e certificação (ou ambos) sobre os custos. Quatro custos, calculados por paciente/dia, medidos em horas/paciente, foram usados:

  • \(X_1\): Custo de mão de obra de enfermagem;

  • \(X_2\): Custo de nutricionista;

  • \(X_3\): Custo de trabalho de manutenção e funcionamento;

  • \(X_4\): Custo de limpeza e lavanderia.

Um total de \(N = 516\) observações sobre os \(p = 4\) custos foram separadas pelo tipo de propriedade e estão disponíveis no arquivo Exemplo Manova.dat.